[2024年8月7日号]個人的に気になったModern Data Stack情報まとめ

[2024年8月7日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2024.08.07

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この3週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Airbyte社により、2024年のデータエンジニアリングのトレンドをまとめた記事が出ていました。

https://airbyte.com/blog/top-data-engineering-trends

具体的には、以下の項目についてトレンドとして言及があります。Airbyteの機能となぞらえて説明がされているため少しAirbyteのポジショントーク感もありますが、内容は私も同意できるところがあったため、参考にはなると思います。

  • AI Integration: Transforming the Data World
    • AIの活用のためには、高品質なデータ管理が前提条件である
  • Enhancing Security and Governance
    • AIやエンドユーザーには見せるべきデータだけを見せるように、暗号化、マスキング、権限管理などをしっかり行う必要がある
  • Streamlining Collaboration with Data Contracts
    • エンジニアリングチームがテーブル定義の変更をかってに行うことによりデータチームに影響が及ぶ問題を解決するためのData Contracts
  • The New Wave of Orchestrators: Moving Beyond Airflow
    • Dagster、Prefect、KestraなどAirflowに代わるツールが多くリリースされている

SaaSの売買プラットフォームを提供するVendr社により、四半期ごとに提供される「The SaaS Trends Report」のQ2版がリリースされました。

https://www.vendr.com/insights/saas-trends-report-q2-2024

個人的に気になったのはこのあたりです。

  • DATA INTEGRATIONの分野で、Hightouchが売上1位、2位がFivetran
  • Q2でSaaS Leaderboardにランクインした新規ベンダーの数が、Q1の2倍に上がった(新しい製品が多く出ており、販売実績があるということ)
  • 顧客ごとの年間契約額(ACV)は、過去1年の四半期を比べても横ばい

クラスメソッドの年次イベントDevelopersIO 2024 Odysseyが開催されました

2024年7月に、クラスメソッドの年次イベントDevelopersIO 2024 Odysseyが開催されました。

https://event.classmethod.jp/odyssey-offline

本イベントではデータ関係の登壇も多くありました。下記は登壇された方々のレポートブログになりますので、気になる内容がありましたらぜひご覧ください。

https://dev.classmethod.jp/articles/devio2024-primer-of-generative-ai-20240720/

https://dev.classmethod.jp/articles/devio2024-snowflake-ml-overview-20240723/

https://dev.classmethod.jp/articles/dbt-snowflake-classmethod-odyssey-online-cm_odyssey-devio2024/

https://dev.classmethod.jp/articles/informatica-cdgc-developersio-2024/

https://dev.classmethod.jp/articles/devio2024-data-quality-first-step-20240731/

https://dev.classmethod.jp/articles/developersio-2024-osaka-amazon-personalize-entry-session/

https://dev.classmethod.jp/articles/grafana-iot-timestream-s3-devio2024/

https://dev.classmethod.jp/articles/information-retrieve-and-recommendation-for-genai-developersio-2024/

https://dev.classmethod.jp/articles/explanation-of-dashboard-design-that-leads-to-action/

https://dev.classmethod.jp/articles/devio2024-okinawa-biglake-s3-strategy/

https://dev.classmethod.jp/articles/google-cloud-orchestration-devio2024/

Data Extract/Load

Fivetran

FivetranがPolaris Catalogとの統合機能をリリースすることを発表

Snowflakeが開発したオープンソースのIceberg CatalogであるPolaris Catalogについて、Fivetranが統合機能をリリースすることを発表しました。

https://www.fivetran.com/blog/unlock-catalog-interoperability-with-fivetran-and-polaris

現在のFivetranでもS3 DestinationでIcebergとして書き出す機能を提供していますがこれはAWSのGlue Catalogを用いているため、Polaris Catalogに対応すればSnowflake内で閉じたカタログ管理が出来るようになるはずです。

※参考までに、現在のS3 Destinationに関する弊社のブログを下記に載せておきます。

https://dev.classmethod.jp/articles/fivetran-s3-datalake-icebergtable-select-from-snowflake/

SmartHRのLite Connectorがリリース

ユーザーからリクエストをもらって開発がされるLite Connectorで、SmartHRのコネクタが新しくリリースされました。少しずつですが、日本独自のコネクタも増えてきていますね!

https://fivetran.com/docs/connectors/applications/smarthr

Data Warehouse/Data Lakehouse

全般

Open Table Formatに関するポッドキャスト「OTF Talk」

AWSに所属している@simosakoさんにより、Open Table Formatに関するポッドキャスト「OTF Talk」が始まりました。

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです

https://podcasters.spotify.com/pod/show/otftalk/episodes/01-OTF-Open-Table-Format---OTF-e2mjtfq

Snowflake

Polaris Catalogがオープンソースとしてリリース

今年のSnowflake Summitで発表された、Polaris Catalogがオープンソースとしてリリースされました。

https://github.com/polaris-catalog/polaris

Snowflake社からSaaS版に該当するPolaris Catalogも提供されており、Snowflakeアカウントを持っていなくてもPolaris Catalogのアカウントを申請することも出来ます。

https://other-docs.snowflake.com/en/polaris/overview

SaaS版のPolaris Catalogを使用したチュートリアルも用意されています。

https://other-docs.snowflake.com/en/polaris/tutorials/polaris-gs

また、Dremio社からもPolaris Catalogに関する解説記事が出ていました、こちらも参考になると思います。

https://medium.com/data-engineering-with-dremio/understanding-the-polaris-iceberg-catalog-and-its-architecture-dfd4469b050c

テキストデータに対するRAGを簡単に実装できる「Cortex Search」がパブリックプレビュー

今年のSnowflake Summitで発表された、Cortex Searchがパブリックプレビューとなりました。(現在はAWSのUSリージョンのSnowflakeアカウントでしか利用できない点だけご注意ください。)

https://docs.snowflake.com/en/release-notes/2024/other/2024-07-25-cortex-search-preview

Cortex Searchは、大規模言語モデル (LLM) を活用した検索拡張生成 (RAG) を簡単に構築でき、Embedding、インフラのメンテナンス、パラメータの調整、インデックスの更新などを気にすることなく、構築・運用がすることができる機能です。

実際に私もチュートリアルに沿ってCortex Searchを試してみました、Cortex Searchを使えば最初の設定だけ行えば裏側の調整はよしなにやってくれるため、とても運用が楽になると思います!

https://dev.classmethod.jp/articles/snowflake-try-cortex-search/

Snowsight上の操作でLLMモデルのFine-Tuningが行えるCortex Fine-Tuningがパブリックプレビュー

今年のSnowflake Summitで発表されたCortex Fine-tuningについて、Snowsight上でFine-Tuningを行える機能が新しくパブリックプレビューとなりました。

https://docs.snowflake.com/release-notes/2024/ui/2024-07-30#cortex-fine-tuning-preview

https://docs.snowflake.com/user-guide/snowflake-cortex/cortex-finetuning#use-sf-web-interface

SnowflakeのRBACについてのベストプラクティス

SELECT社により、SnowflakeのRBACについてのベストプラクティスをまとめた記事が出ていました。

実例も交えて、Access RoleとFunctional Roleをどのように構成していくかもまとめられていて参考になると思います。

https://select.dev/posts/snowflake-rbac-best-practices

BigQuery

table explorerがパブリックプレビュー

各カラムがどのような値から構成されているかをざっと確認することができる、table explorerがパブリックプレビューとなりました。

https://cloud.google.com/bigquery/docs/table-explorer

下図が実際の画面となりますが、各カラムの値にどのようなものがあって、何レコード存在しているかの集計値を見ることが出来ます。

2024-08-07_07h40_11.png

continuous queriesがパブリックプレビュー

BigQueryで新しく入ってきたレコードに対して、指定したクエリやエクスポート処理を自動的に行うことが出来るcontinuous queriesがパブリックプレビューとなりました。

具体的には、INSERT文を実行、Pub/Subトピックへのエクスポート、Bigtableへのエクスポート、BQMLの一部の関数、などを実行できるようです。

https://cloud.google.com/bigquery/docs/continuous-queries-introduction

https://cloud.google.com/bigquery/docs/continuous-queries

Data Transform

dbt

dbt Labs社内でのdbt Semantic Layerの導入について

dbt Labs社の公式ブログより、dbt Semantic Layerの導入したことによって得られた成果と得られた教訓(dbt Semantic Layerのプラクティス)まとめた記事が出ていました。

成果としては、OKRパフォーマンスを見るスライドの作成の時間やアドホックなARRに関する質問の対応時間が削減され、データの品質と信頼性も向上したとのことです。

https://www.getdbt.com/blog/streamlining-kpi-dashboards-dbt-semantic-layer

Business Intelligence

Looker Studio

Looker Studioの魅力と便利な使い方を紹介します

@syou6162さんにより、Looker Studioの特徴や使い方をまとめた記事が出ていました。

https://www.yasuhisay.info/entry/2024/07/22/082233

具体的には下記の内容についてまとめられています。充実度が凄いのでLooker Studio使う人はまずこの記事を見ればよいのでは、と感じます。

  • 描画できるグラフ
  • 通知やエクスポート
  • フィルタ周り
  • 相対比較
  • 権限設定
  • ダッシュボード作成の手順

Tableau

The Future of Tableauが開催予定

「The Future of Tableau」というウェビナーが現地時間2024年8月15日に開催されます。

https://www.tableau.com/learn/webinars/innovation-preview-future-tableau-2024-08-15#form

Salesforce社のCEOであるMarc氏のXの投稿によると、「The all-new Tableau is on the horizon」とのことなのでどのような発表がされるか気になるところです。

Notebook

Hex

スプレッドシートの関数のような集計・計算が行えるParameterized Calculations機能を発表

Hexの新機能として、スプレッドシートの関数のような集計・計算が行えるParameterized Calculations機能が発表されました。

個人的には、Sigmaに近い印象を受けましたね。

https://hex.tech/blog/use-cases-for-calculations-in-hex-now-with-input-parameters/

Data Catalog

Select Star

CSVでのGlossary(用語集)のインポートとエクスポート機能を発表

Select Starの新機能として、CSVでのGlossary(用語集)のインポートとエクスポート機能を発表しました。

Glossaryは汎用的なフォーマットで管理できると他の媒体にも使いやすくなると思うので、個人的には嬉しい機能ですね。

https://docs.selectstar.com/changelog/july-31-2024-glossary-import-lineage-updates-and-more#glossary-import-and-export

https://docs.selectstar.com/features/documents/glossary

Data Activation (Reverse ETL)

Census

Universal Data Platformについて

Censusから、「今後Universal Data Platformを提供していく」という方向性を打ち出したブログが2つ出ていました。

https://www.getcensus.com/blog/introducing-the-universal-data-platform

https://www.getcensus.com/blog/toward-a-universal-data-platform

Universal Data Platformについては、ブログ上に掲載のあった下図がわかりやすいと思います。

2024-08-07_08h40_58.png

Data Orchestration

Orchestra

Orchestraが100万ポンドの資金調達を実施

データオーケストレーションのサービスを提供する新興企業であるOrchestraが、新しく100万ポンドの資金調達を行ったことを発表しました。

https://www.getorchestra.io/blog/orchestra-the-unified-control-plane-for-data-operations-raises-ps1m-funding-to-help-enterprises-to-rapidly-deliver-data-and-ai-products

Maestro

Netflix社が使用しているワークフローオーケストレーターのMaestroがオープンソース化

Netflix社が、データパイプラインや機械学習モデルのトレーニングパイプラインなどを管理するために設計・開発したワークフローオーケストレーターである「Maestro」のソースコードが一般公開されました。

https://netflixtechblog.com/maestro-netflixs-workflow-orchestrator-ee13a06f9c78

https://github.com/Netflix/maestro

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.